[Day 01]關於網路爬蟲 - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2023 iThome 鐵人賽

DAY 1

0

Software Development

30天來打造一個方便的訂房機器人系列第 1 篇

[Day 01]關於網路爬蟲

15th鐵人賽

2023-09-11 11:19:32

1560 瀏覽

分享至

在這個資訊爆炸的時代，網絡成了我們獲取知識、資訊和娛樂的主要途徑之一。然而，網絡上的資源龐大且多樣，有時候我們可能想要將特定的資料整理、分析或應用於其他領域。這就是網路爬蟲的用武之地。

網路爬蟲能從網絡上擷取資料，並轉換成結構化格式，以便進行分析、處理或儲存。類似蟲子在網絡中爬行，尋找感興趣的資訊。發送請求到網址，解析網頁內容，提取需要的資料，可以是文字、圖片、影片等。定期收集資料，獲得即時的信息。

爬蟲應用廣泛，新聞聚合到價格比較。收集競爭對手價格，制定策略；新聞機構自動整理發布新聞。
這項技術是強大工具，幫助我們尋找整理所需資訊。需遵守道德法律，確保不損他人利益。適當使用，深入網絡體驗。

接下來我們會講到兩大常見的爬取網路資料的語法分別為beautifulsoup以及selenium
我們可以稍微比較一下這兩者在使用上面的差別

特點	BeautifulSoup	Selenium
主要用途	解析靜態HTML/XML頁面	測試、自動化瀏覽器操作
複雜度	較簡單，適用於靜態網頁	較複雜，支援動態網頁和JavaScript
安裝	使用pip安裝	使用pip安裝，需下載對應瀏覽器驅動
選擇元素	使用CSS選擇器、標籤名稱等	使用XPath、CSS選擇器等
定位方式	定位靜態元素，無需瀏覽器	需啟動瀏覽器，定位動態元素
JavaScript執行	不支援	支援，可執行網頁上的JavaScript代碼
適用情境	靜態網頁解析、資料提取	動態網頁測試、模擬用戶操作
效率	較高，適用於靜態頁面	較低，因為需啟動瀏覽器
社群支援	較廣泛，文檔豐富	較廣泛，文檔豐富，但主要針對測試方向
開發語言	Python	多種語言，但主要用於Python

下一篇來介紹beautifulsoup的環境安裝

[Day 02]beautifulsoup環境安裝

系列文

30天來打造一個方便的訂房機器人共 30 篇

目錄

RSS系列文訂閱系列文

7 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙